Introdução à Estatística

Aulas I a IV - Conceitos Fundamentais

Luiz Diego Vidal Santos

Universidade Estadual de Feira de Santana (UEFS)

I. Introdução

1.1 - Etimologia

Definição

  • Inferência estatística refere-se aos resultados derivados da análise estatística dos dados coletados
  • A inferência estatística advém de uma relação entre a teoria estatística e os dados reais
  • A palavra ESTATÍSTICA vem de STATUS (latim = estudo), criada pelo acadêmico alemão Gottfried Achenwall em meados do século XVIII

Conceito Central

A Estatística é uma ciência que oferece uma coleção de métodos para:

  • Planejar experimentos e levantamentos
  • Obter dados
  • Organizar e resumir
  • Analisar e interpretar dados
  • Extrair conhecimento

1.2 - Processos Estatísticos em Pesquisas

Quando solicitados a investigar um fenômeno coletivo, podemos optar por:

Censo

Estudo de todos os componentes de uma população

Amostragem

Estudo de alguns elementos de uma população cujo objetivo é fazer inferência sobre a população

Tipos de Amostragem

1. Amostragem Não-Probabilística

Escolha dos elementos depende dos critérios e julgamento do pesquisador.

Exemplos:

  • Amostragem por conveniência
  • Amostragem intencional
  • Amostragem por cotas

2. Amostragem Probabilística

Escolha dos elementos é aleatória. Cada elemento tem probabilidade conhecida.

Exemplos:

  • Amostragem Aleatória Simples (AAS)
  • Amostragem Sistemática (AS)
  • Amostragem Estratificada (AE)
  • Amostragem por Conglomerados (AC)

Ramos da Estatística

A Estatística pode ser dividida em duas grandes áreas:

Estatística Descritiva

Trata da organização, resumo e apresentação dos dados.

Estatística Inferencial

Trata de tirar conclusões sobre uma população a partir de uma amostra.

A ferramenta básica é a probabilidade, que permite avaliar e controlar o tamanho do erro cometido ao se fazer generalizações.

1.3 - Conjunto de Dados, População e Amostra

Conjunto de dados

Coleção de observações onde cada coluna representa uma variável e cada linha uma unidade de análise.

População

Conjunto completo de elementos que compartilham uma característica; representa o universo do estudo.

Amostra

Subconjunto da população selecionado para representar o todo, utilizado quando o acesso à população é impraticável.

Definição

  • Inferência estatística refere-se aos resultados derivados da análise estatística dos dados coletados
  • A inferência estatística advém de uma relação entre a teoria estatística e os dados reais

Exercício 1

Identifique a população e a amostra para os casos a seguir:

a) Em uma pesquisa recente, foi perguntado a 1.708 adultos se eles consideram o aquecimento global um problema que exige ação imediata do governo. 939 deles responderam que sim.

b) Uma pesquisa conduzida entre 1.071 homens e mulheres pela Corporação Internacional de Pesquisa de Opinião descobriu que 76% das mulheres e 60% dos homens haviam passado por exames físicos em 2013.

1.4 - Tipos de Variáveis

Variáveis Nominais

Uma variável totalmente qualitativa

  • Não significa que não pode ser feita análises quantitativas
  • Os valores apenas diferenciam categorias qualitativas diferentes, mas não há relação entre as categorias
  • Os números atribuídos não têm significado matemático

Exemplos: nacionalidade, religião, estado civil

Variáveis Ordinais

Características

  • Estabelece uma ordem ou hierarquia entre as categorias
  • O intervalo entre as categorias não é regular
  • Ex: A ordem de chegada dos corredores na linha de chegada

Exemplo: Escolaridade

  1. Ensino fundamental
  2. Ensino médio
  3. Ensino superior

Escala Likert

1 2 3 4 5
Discordo totalmente Discordo Neutro Concordo Concordo totalmente
dados <- read.csv('dados.csv', header = TRUE, sep = ",")
escolaridade <- cut(dados$Anos.de.Estudo,
                    breaks = c(3, 9, 13, Inf),
                    right = TRUE,
                    labels = c("Fundamental", "Medio", "Superior"))
table(escolaridade)

Variáveis Escalares e de Razão

Variáveis Escalares

  • O intervalo entre os valores é sempre constante
  • O zero é um valor arbitrário
  • Ex: 0°C, nota de teste de matemática

Uma nota zero não corresponde a ausência de conhecimento matemático

Escala de Razão

  • O valor zero significa total ausência do atributo mensurado
  • Ex: Segundos, Salário, Volume de vendas, Distâncias

Procedimento de análises

Tipo Capacidade
Nominal Distinção
Ordinal Distinção + Ordem
Escalar/Razão Distinção + Ordem + Distância

1.5 - Classificação de uma Variável

De acordo com Stevens (1946), as variáveis podem ser classificadas como:

  • Nominal
  • Ordinal
  • Escalar
  • Razão

O tipo de variável determina a análise a ser utilizada

Exercício 2

Classifique as variáveis abaixo:

  1. O nº de latinhas consumidas por alunos de uma academia

  2. O total de ml’s consumidos por aluno

  3. O total de alunos que consomem 1, 2-5 ou +5 latinhas

  4. O nº de alunos que bebem vs. não bebem

II. Organização e Análise Descritiva

2 - Distribuição de Frequências

Conceito

  • Organiza os dados em categorias ou intervalos e mostra quantas observações pertencem a cada classe
  • Configura um caso particular das séries estatísticas
  • Utilizada para resumir toda a informação obtida

Exemplo

\(x_i\) \(f_i\) \(fr_i\) \(fr_i\)% \(F_i\) \(Fr_i\) \(Fr_i\)%
0 2 0,0588 5,88 2 0,0588 5,88
1 6 0,1765 17,65 8 0,2353 23,53
2 10 0,2941 29,41 18 0,5294 52,94
3 12 0,3529 35,29 30 0,8823 88,23
4 4 0,1177 11,77 34 1,0000 100,00
Total 34 1,0000 100 - - -

Conceitos Essenciais

Conceito Definição
Dados Brutos Dados disponíveis logo após a coleta, não organizados numericamente
Rol Dados ordenados de forma crescente ou decrescente
Amplitude Total \(AT = X_{max} - X_{min}\)
\(X_{min}\) Menor valor assumido pela variável
\(X_{max}\) Maior valor assumido pela variável
Frequência Absoluta (\(f_i\)) Nº de vezes que o elemento aparece. \(\sum_{i=1}^{k} f_i = n\)

Caso 1 - Dados Brutos

Nesse caso os dados dessa natureza não configuram Distribuição de Frequências.

Caso 2 - Dados agrupados por valores

Variável Qualitativa Ordinal

Grau de Instrução \(f_i\) \(F_i\) \(fr_i\) \(fr_i\)%
Fundamental 12 12 0,333 33,3
Médio 18 30 0,500 50,0
Superior 6 36 0,167 16,7
Total 36 36 1,000 100,0

\[fr = \frac{f_i}{n}, \quad n = \sum_{i=1}^{k} f_i\]

Variável Quantitativa Discreta

Anos \(f_i\) \(F_i\) \(fr_i\) \(fr_i\)%
05 18 18 0,500 50,0
06 10 28 0,278 27,8
08 8 36 0,222 22,2
Total 36 36 1,000 100,0

Caso 3 - Dados agrupados por intervalos

Constroem-se classes de valores quando a variabilidade dos dados é grande.

Classes \(f_i\) \(fr_i\) \(fr_i\)%
04 |– 08 10 0,2778 27,78
08 |– 12 12 0,3333 33,33
12 |– 16 8 0,2222 22,22
16 |– 20 6 0,1667 16,67
Total 36 1,0000 100,00

Ao resumir dados de variável contínua perde-se alguma informação, já que a unidade bruta passa a ser vista como um grupo.

Regras para Distribuição de Frequências

1º passo - Organizar em Rol (crescente/decrescente)

2º passo - Calcular a Amplitude Total: \[AT = X_{max} - X_{min}\]

3º passo - Determinar o nº de classes (\(k\)):

  • Se \(n < 25\): \(k \approx \sqrt{n}\)
  • Se \(n \geq 25\) (Regra de Sturges): \[k = 1 + \frac{10}{3}\log_{10}n\]

4º passo - Calcular a amplitude da classe: \[h = \frac{AT}{k}\]

5º passo - Construir as classes:

  • 1ª Classe: \(l_{i1} = X_{min}\), \(L_{s1} = l_{i1} + h\)
  • 2ª Classe: \(l_{i2} = L_{s1}\), \(L_{s2} = l_{i2} + h\)

Repetir até cobrir todo o intervalo.

Exercício 3

A tabela apresenta notas de 20 alunos na disciplina de Geografia. Obtenha a frequência da variável contínua.

dados <- read.csv('dados.csv', header = TRUE, sep = ",")

renda <- cut(dados$Renda,
             breaks = c(1087, 3900, 12600, 20000, Inf),
             right = FALSE,
             labels = c("Classe D", "Classe C", "Classe B", "Classe A"))

# Frequência Absoluta
freq_abs <- table(renda)
freq_abs

# Frequência Absoluta Acumulada
freq_abs_acum <- cumsum(freq_abs)

# Frequência Relativa
freq_rel <- prop.table(freq_abs)

Obrigado!

Luiz Diego Vidal Santos

Universidade Federal de Sergipe

diego@academico.ufs.br